home
***
CD-ROM
|
disk
|
FTP
|
other
***
search
/
Chip 1996 April
/
CHIP 1996 aprilis (CD06).zip
/
CHIP_CD06.ISO
/
hypertxt.arj
/
92
/
GOCRTEZ0.CD
< prev
next >
Wrap
Text File
|
1995-09-14
|
10KB
|
164 lines
@VKedves (szövegbe)olvasó!@N
@VGO-CR 2.0@N
Az OCR programok világpiaca manapság még nem túl bô, így
tehát érthetô érdeklôdéssel, sôt -- ismerve az elôdöt --
talán némiképpen túlzott várakozással néztem az ismert
Recognita Plus 2.0 kistestvére, a GO-CR 2.0 tesztje elé.
Hozzá kell tennem, hogy a GO-CR korábbi, 1.2 verziója
ismeretlen volt számomra, így csupán a Recognita erényei
alapján közelítettem az új szoftverhez. De lássuk az
eredményt.
A GO-CR ízléses, a lemezeket jól védô, bár kissé
túlméretezett kartondobozban kapott helyet a dokumentáció és
némi reklám társaságában. Az 5|1/4 colos lemez tartalma
Windows alól telepíthetô, minden nehézség nélkül. Teljesen
kezdô felhasználó a dokumentáció alapján, annak utasításait
követve percek alatt használható állapotba hozhatja a
szoftvert. Nagyobb nehézséget jelenthet a kéziscanner
telepítése, de a teszt során használt Logitech Scanman 32
típust a leírás alapján szintén igen egyszerû mûködôképes
állapotba hozni.
A munka megkezdéséhez már csak egyetlen lépést kell
megtenni. A GO-CR opciók menüjében a paraméterek között be
kell állítani a scannertípust.
A GO-CR program használatának megtanulásához pontosan
annyi idôre van szükség, amennyi idô alatt el tudjuk olvasni
a dokumentációt. A szoftver feltétlen elônye az
áttekinthetôség, amelyhez meglehetôsen jól sikerült
menüpontok és feladatmegnevezések társulnak. Itt a
Windows-alapú rendszerekben megszokott és a legtöbb
gyakorlott felhasználót irritáló ""mindjárt megcsinálom, ha
elôbb kattintgatsz néhányat" megoldása sem zavaró, mivel a
menüpontok célratörô egyszerûséggel szervezettek.
Hasonlóan jól sikerült a felhasználói kézikönyv,
amelynek szerkezete, egyszerû, célratörôen tömör
fogalmazása, áttekinthetôsége és a szövegrészletek
kiemelésének következetes alkalmazása nagyban hozzájárul a
gyors megtanulhatósághoz. A teljes kézikönyvnek csak
egyetlen megfogalmazásával nem tudok egyetérteni, de sajnos
ez a lényeget érinti. Ez a kézikönyv alcímében szereplô
megjegyzés, miszerint a GO-CR ""ideális szövegfelismerô
program kézi szkennerekhez". Kétségtelenül igaz, hogy az
""ideális" jelzô sokféleképpen, akár filozófikus tartalommal
is érthetô, mégis úgy vélem, manapság egy ilyen jelzôvel
ellátott szövegfelismerô programtól elvárható lenne, hogy
segítségével hatékonyabban lehessen a beolvasott szövegeket
eltárolni, mint úgy, hogy a számítógépet ""írógépként"
alkalmazzuk, és a szöveget begépeljük egy
szövegszerkesztôbe. Igaz, aki lassan gépel és sok ideje van,
nem érzi ezt kritikusnak.
Lássuk a száraz tényeket. A GO-CR valószínûleg nem
rendelkezik kellôen hatékony képjavító eljárásokkal a
beszkennelt oldalak bitképének elôkészítéséhez, pedig
ilyenekre éppen a kéziscannerek használatakor lenne igazán
szükség, hiszen a felhasználó keze semmiképpen sem
tekinthetô sebesség- és iránystabilizáltnak, így várhatóan
-- sôt egészen biztosan -- egyenetlen lesz a beolvasott
bitkép. Ezután kerül a bitkép a szövegfelismerô algoritmus
gondjaiba, amely a beolvasott anyag elég sok részletével nem
tud mit kezdeni, s a bizakodó felhasználót egész sor ""~"
jellel kápráztatja el, bár a karakterfelismerés abszolút
értékben eredményesnek tekinthetô.
Nehézséget okoz, hogy a kéziscannert a sorokra vagy
merôlegesen (balról-jobbra olvasás), vagy párhuzamosan
(felülrôl-lefelé olvasás) kellene tartani ahhoz, hogy a
sorok ne keveredjenek össze. Ez összességében azt
eredményezi, hogy a felismert szöveg összetöredezhet, sôt a
beolvasás elôtt beállított kétoldali vágás ellenére a
szövegben bennmaradó töredék sorok tovább rontják a
keletkezô szövegfile kezelhetôségét. îgy elôfordulhat, hogy
a felhasználni kívánt szövegben ugyan jó lesz a felismert
karakterek abszolút száma a beolvasott karakterekhez képest,
a felhasználó mégis úgy érzi, igen sokat kell dolgoznia
ahhoz, hogy a töredék sorok törlése és a tördelési hibák
kijavítása után végre hozzáláthasson a hibásan felismert
karakterek javításához.
Tapasztalatom szerint a beolvasás elfogadható hibaarány
mellett csak sík lapról történhet. Könyvbôl beolvasott
anyagnál a szövegfelismerés az óhatatlanul létrejövô
geometriai torzítások miatt meglehetôsen sok hibával jár.
A GO-CR igen sokféle nemzeti karakterkészlettel van
ellátva, ami azt sugallja, hogy alkalmazható lenne rövid
ideig rendelkezésre álló anyagok gyors beolvasására a
késôbbi hibajavítás céljára. Sajnos a tapasztalat azt
mutatja, hogy az elmentett anyag még magyar nyelven is
nehezen javítható, de a javítás biztonsága semmiképpen sem
lehet 100%-os az eredeti hiányában, ha annak tartalma, vagy
megfogalmazása eltér a köznyelvi általánosságoktól.
Tesztszövegként a HVG 1992. június 20-i számában, a 21.
oldalon megjelent ""Jelenetek egy háborúból" címû írást, a
GO-CR felhasználói kézikönyvének 3--11. oldalát, angol
nyelvû szövegként pedig a Microsoft Pascal 4.0 User's Guide
3. oldalát (kapcsos dossziéból laponként kiemelhetô, tehát
sík lapon olvasható) választottam, mivel több kísérlet után
ez utóbbi adta a leginkább elfogadható eredményt. A scanner
optimális szürke-fekete tónusbeállítása után (öt beolvasási
kísérlet eredménye alapján) a szöveg 300 és 400 dpi
felbontásban került beolvasásra, majd az így kapott
szövegfile rendezés, ""fazonigazítás" után került
összehasonlításra az eredetivel.
A HVG cikk 300 dpi-s szkennelése után a két hasáb 2618
illetve 2694 karakterébôl 106 illetve 105 hibásan felismert
karakter adódott, ami elég jó, 4%-os hibaarányt jelent.
Ugyanitt 400 dpi-s szkennelés után 100 és 72 hibásan
felismert karaktert kaptunk, ami 4, illetve 2,8%-os
hibaarányt jelent. Hasonló arányt kaptunk a Pascal 4.0
User's Guide és a GO-CR felhasználói kézikönyv lapjainál is.
Az itt említett jó eredmény szépségébôl némiképp levon
az a tény, hogy ilyen eredményhez optimális feltételekre van
szükség, tehát a scannert valamilyen eszközzel célszerû
""vezetni" és a beolvasást igen figyelmesen kell végezni,
különös tekintettel a mozgás egyenletességére. Vagyis
pihenten dolgozzunk, és hosszabb anyag bevitelekor iktassunk
be pihenôket és kéztornát, mivel a negyedik oldal beolvasása
után rohamosan romlik a felismert karakterek aránya. Elsô
kísérleteim során teljesen elkedvetlenített, hogy a
felismert szöveg fele sem volt használható.
Végül álljon itt néhány gondolatébresztô költôi kérdés a
fejlesztôk számára. A GO-CR miért nem képes bittérképes
file-ok beolvasására, hiszen ekkor a beolvasott anyagokat
képjavító eljárások alkalmazása után, késôbb is alá lehetne
vetni a szövegfelismerés eljárásának. Ha ez nem cél, nem
kellene-e javítani a szoftver saját képjavító algoritmusán,
hiszen egy gyengébb scanner alkalmazásakor fokozott
érzékenységû lesz a rendszer a papírminôségre, a
karaktertípusra. Színes oldalak szövegeinek beolvasása
gyakorlatilag lehetetlen (halvány pasztell háttér esetén
esetleg kísérletezhetünk, de csak abban az esetben, ha a
háttér egyenletes).
Végkövetkeztetés: a GO-CR olcsó, de csak szûk keretek
között használható eredményesen. Tekintsük tehát ígéretes
kezdetnek, és reménykedjünk a késôbbi fejlesztésekben.
@KBerényi Csaba@N
@VMit mondanak a fejlesztôk?@N
A teszt során felvetôdött problémák tisztázása érdekében
megkerestük az SzKI Recognita Rt.-t. Dr. Balázs-Piri László
igazgató úr szívességébôl a cég munkatársainak kiegészítését
rövid idôn belül megkaptuk. Ennek lényegét pontokba szedve
közöljük:
@V*@N a GO-CR elsôsorban keskenyhasábos szövegek
beolvasásához ajánlott szoftver;
@V*@N a valósidejû megjelenítés a GO-CR olyan, újdonságnak
számító szolgáltatása, amely segíti a felhasználót a
szürkeárnyalat optimális beállításában a scanneren;
@V*@N a GO-CR @KText--Merge@N szolgáltatása lehetôséget ad
hosszabb szövegek egybefüggô bevitelére;
@V*@N a kimentett szövegfile bármely Windows alapú
szövegszerkesztôbe nehézség nélkül, automatikusan
beolvasható és ott tovább szerkeszthetô;
@V*@N a szomszédos hasábok beolvasásakor keletkezô
felesleges karakterek képkijelöléssel megszüntethetôk -- ha
a beolvasás során a beolvasni kívánt hasáb kijelölése
önmagában nem vezetne kellô eredményre;
@V*@N a scannervezetés ""kézfüggô", ezért a kéziscannerek
közül érdemes kiegészítô vezetôgörgôvel ellátott típusokat
használni, mivel így kisebb a hibalehetôség;
@V*@N idôközben elkészült a magyar nyelvû súgó (help), amely
segíti a magyar felhasználók munkáját.